BilliardPhys-Bench: evaluando el razonamiento físico de los LLM multimodales
BilliardPhys-Bench expone los límites de los LLM multimodales en razonamiento físico, revelando el 'sesgo de estasis' en predicciones de billar sintético.
BilliardPhys-Bench expone los límites de los LLM multimodales en razonamiento físico, revelando el 'sesgo de estasis' en predicciones de billar sintético.
Descubre cómo DenseMLLM permite a los LLM multimodales estándar realizar predicciones densas sin decodificadores adicionales. Resultados competitivos en segmentación y profundidad.
Descubre cómo un nuevo método de perturbación perceptual y modelado de recompensa corrige el sesgo en evaluaciones de LLMs multimodales. Más preciso y alineado con humanos.